AI资讯新闻榜单内容搜索- LLM

LLM终于学会推公式了！博世x清华推出FunctionEvolve：LLM-SRBench提升3.6倍，AI-Feynman满分

来自博世中央研究院与清华大学的研究人员提出 FunctionEvolve 框架，在两大基准测试上大幅刷新了这项任务的结果。在 LLM-SRBench 的 129 个合成科学方程任务上，FunctionEvolve 最终给出的公式在 55.8% 的任务上与真实公式等价（SA@1 = 72/129），是此前最好结果的 3.6 倍；

来自主题: AI技术研报

7524 点击 2026-06-20 10:24

离谱！溜溜梅撞名 LLM，被炒成AI概念股，上市首日暴涨 186%

卧槽，这事真的太抽象了。

来自主题: AI资讯

8088 点击 2026-06-17 14:26

ICML 2026 | 大模型为什么算不对加法？南大团队提出等本位和轨迹，揭示LLM算术错误的几何机制

尽管大语言模型（Large Language Models, LLMs）在复杂数学推理、代码生成和知识问答上表现突出，但它们仍常在多位数加法这类基础算术任务上犯错。

来自主题: AI技术研报

7423 点击 2026-06-17 14:05

BudgetMem：给Runtime Agent Memory装上「预算路由器」，让记忆系统学会按需分配运行成本

当 LLM Agent 处理长期对话、多轮交互和复杂文档时，Memory 已经成为不可或缺的核心模块。它帮助智能体保存历史、检索信息、维持个性化上下文，并支撑跨时间的推理能力。

来自主题: AI技术研报

8532 点击 2026-06-15 09:20

刚刚，Anthropic道歉了

压力之下，刚刚，《连线》记者 Max Zeff 爆料称，Anthropic 正在撤销这一政策。该媒体从 Anthropic 获得了一份声明，其中写到：「我们正在调整 Fable 5 针对前沿 LLM 开发的安全限制，使其变得可见。」

来自主题: AI资讯

9524 点击 2026-06-11 15:02

斩获15个顶级零日漏洞：0G Lab联合新国立，北大和北邮团队构建的共识协议debug智能体框架

分布式系统的 “圣杯”—— 共识协议（Consensus Protocols），长久以来都是顶级基础设施工程师的 “Bug 地狱”。由于其状态极其复杂、多节点交织，传统测试和单体 LLM 对硬核的 Deep Bug（深层逻辑漏洞）几乎束手无策。

来自主题: AI技术研报

8228 点击 2026-06-11 14:59

图灵奖得主Sutton新作：AI的下一步，是走向「生成认知」

从 LLM 的超长文本处理、视频生成模型的以假乱真、Agent 自主规划与执行的日趋成熟，到 VLA、世界模型等开始进入物理世界，AI 正在不断拓宽其能力边界。

来自主题: AI技术研报

6697 点击 2026-06-02 15:05

Speech LLM 的下一个突破口：你的语音大模型可以是个「带韵律的文本模型」

相信大家都有过这样的体验：同一个系列的模型，使用文本交互的时候，模型就像开启了 “最强大脑”，数学代码等各种复杂推理任务样样精通，可是一旦将其改造成语音对话模型之后，性能就猛烈下降，严重 “降智”，经常会犯很多基本的逻辑错误。

来自主题: AI技术研报

6139 点击 2026-05-28 14:51

告别多奖励跷跷板：Flow-OPD将多教师OPD带入图像生成

今年以来，在线策略蒸馏 OPD（On-Policy Distillation）已经逐渐成为大厂 LLM 后训练中的重要组件，例如 DeepSeek-V4，GLM5 就使用了多教师 OPD 来整合不同领域专家模型的能力，相比混合奖励强化学习收敛更快、效果更好。

来自主题: AI技术研报

7305 点击 2026-05-26 10:07

突发： Karpathy 加入 Anthropic

5 月 19 日，Andrej Karpathy 在 X 上宣布加入 Anthropic。个人近况：我已加入 Anthropic。我认为未来几年在 LLMs 前沿的工作将具有特别重要的塑造性。我非常激动能加入这里的团队并重回研发。我仍然对教育充满热情，并计划适时恢复我在这方面的工作

来自主题: AI资讯

10025 点击 2026-05-20 00:05